Timer-XL: Long-Context Transformers for Unified Time Series Forecasting-论文阅读

Date:

摘要

Transformer 在自然语言处理和计算机视觉领域做出了重大贡献,并已被广泛应用于时间序列预测,成为专业预测模型和大型模型的基础。作为典型的生成式任务,预测质量在很大程度上依赖于上下文。可靠的预测需要充分考虑内生的时间变化,并将相关的 exogenous 相关性检索到上下文中。此外,训练上下文长度是衡量模型扩展能力的指标,它决定了生成式 Transformer 的最大输入和输出,最终实现长序列、高分辨率和高频率的生成。

然而,时间序列领域的现有 Transformer 关键地遇到了上下文瓶颈。与自然语言和视觉中处理数千到数百万个令牌的 Transformer 不同,时间序列 Transformer 通常只能在最多数百个时间序列令牌(片段)的有限上下文中工作。对于单变量时间序列,短的上下文长度导致对全局趋势的感知不足,忽略了现实世界时间序列中普遍存在的非平稳性。过度依赖平稳化处理(如归一化)限制了模型能力,并导致 Transformer 过拟合。此外,与其将多变量时间序列视为独立通道,越来越多的 Transformer 显式地捕捉通道内和通道间的依赖关系,这迫切需要增加上下文长度以涵盖相互关联的变量。

最近,生成式 Transformer(主要表现为仅解码器架构,是大语言模型的主要可扩展选择)在开发大型时间序列模型时受到越来越多的关注,这得益于其泛化性能和上下文灵活性,即一个 Transformer 在推理时可以适应所有输入长度。因此,在更长上下文上训练不仅赋予它们整合更多上下文信息的基本能力,而且增强了模型的多功能性,使其成为一个“全能”的基础模型,将任何变量和任何长度的时间序列视为一个上下文。即使先前的工作已经在仅编码器 Transformer 中实现了扁平化令牌的统一建模,但令牌之间的完全依赖关系与预测的因果性不兼容,我们的实验也表明它们的监督学习和泛化性能仍然不如仅解码器模型。

为了追求统一的时间序列预测,我们提出了多变量下一令牌预测。它将图 1 中的预测任务统一到基于长上下文序列的片段级生成中。为了充分利用生成式 Transformer 的全局范围建模能力和上下文灵活性,我们开发了 TimeAttention,它在通道依赖下学习因果时间依赖,优雅地实现为一种掩码机制,而无需修改自注意力本身。结合多变量序列的相对位置嵌入,TimeAttention 进一步增强了对时间点的时序感知和变量的区分能力。我们提出了 Timer-XL 作为生成式时间序列 Transformer 的超长版本。我们首先将上下文扩展到数千个令牌,并在单变量、多变量和协变量信息预测中实现了最先进的性能。凭借显著的上下文灵活性,Timer-XL 在不同的时间动态、变量和数据集之间具有很好的泛化性。我们的贡献在于三个方面:

我们提出了多变量下一令牌预测和统一时间序列预测,增强了 Transformer 在丰富预测上下文中的能力,以做出可靠的预测。

我们引入了 TimeAttention,这是一种为我们提出的范式量身定制的新型因果自注意力机制,用于时间序列模态。它能够实现具有位置感知的序列内和序列间建模,并保持生成式 Transformer 的因果性和灵活性。

我们提出了 Timer-XL,在公认的基准测试中实现了最先进的性能。我们建立了新的基准测试,进行了大规模预训练,并提供了广泛的分析,证明长上下文 Transformer 是“全能”的预测器。

1.引言

用于时间序列预测的 Transformer 经历了快速的发展。

基于令牌的全局范围建模能力,Transformer 在时间序列上显示出强大的力量,迅速从 RNN、CNN 和 MLP 预测器中脱颖而出,尤其是在长序列上。最初的基于 Transformer 的预测器主要关注长期预测,旨在扩展预测范围,同时减轻随着序列长度增加而带来的二次计算增长。然而,先前模型的上下文(回看)长度并未同步增长,这阻碍了 Transformer 做出充分知情的预测,产生过度平滑的结果。同时,另一个进展是从单变量预测发展到多变量预测。与自然语言不同,时间序列是高维且内在相关的,这进一步需要包含相关内生和外生变量的大上下文。为了有效利用序列内和序列间的依赖关系,Transformer 的令牌化在时间维度、片段维度和变量维度方法上得到了广泛发展,并设计了巧妙的 Transformer 用于序列间建模。

尽管在当前情况下普遍存在上下文不足的问题,但很少有工作强调这些挑战可以通过长上下文 Transformer 来统一解决。因此,我们利用原始 Transformer 的基本序列建模能力,将各种预测任务统一为多变量下一令牌预测,并显著扩展了上下文长度。

此外,时间序列 Transformer 经历了从小型特定场景模型到大型基础模型的演变。其中,主要作为大语言模型骨干的仅解码器 Transformer,已成为通用时间序列分析的可扩展和可泛化选择。通过基于前述上下文独立预测每个令牌,仅解码器模型也是多长度预测器,避免了资源密集型的训练和存储。然而,现有的仅解码器预测器通常仅在单个通道上训练,使它们无法利用序列间的依赖关系。

先前的工作采用仅编码器 Transformer 来完全捕捉二维时间序列内的依赖关系。这种架构与下一令牌预测的不兼容性限制了 Transformer 的灵活性和性能。迄今为止,在单个 Transformer 中实现下一令牌预测和多变量时间序列预测仍然是一个基本挑战。我们通过将变量依赖和时间因果性整合到细粒度的注意力掩码中来应对这个问题,从而在不改变自注意力机制的同时,利用上下文灵活性并捕捉序列间的依赖关系。

2. 相关工作

用于时间序列预测的 Transformer 经历了快速的发展。

基于令牌的全局范围建模能力,Transformer 在时间序列上显示出强大的力量,迅速从 RNN、CNN 和 MLP 预测器中脱颖而出,尤其是在长序列上。最初的基于 Transformer 的预测器主要关注长期预测,旨在扩展预测范围,同时减轻随着序列长度增加而带来的二次计算增长。然而,先前模型的上下文(回看)长度并未同步增长,这阻碍了 Transformer 做出充分知情的预测,产生过度平滑的结果。同时,另一个进展是从单变量预测发展到多变量预测。与自然语言不同,时间序列是高维且内在相关的,这进一步需要包含相关内生和外生变量的大上下文。为了有效利用序列内和序列间的依赖关系,Transformer 的令牌化在时间维度、片段维度和变量维度方法上得到了广泛发展,并设计了巧妙的 Transformer 用于序列间建模。

尽管在当前情况下普遍存在上下文不足的问题,但很少有工作强调这些挑战可以通过长上下文 Transformer 来统一解决。因此,我们利用原始 Transformer 的基本序列建模能力,将各种预测任务统一为多变量下一令牌预测,并显著扩展了上下文长度。

此外,时间序列 Transformer 经历了从小型特定场景模型到大型基础模型的演变。其中,主要作为大语言模型骨干的仅解码器 Transformer,已成为通用时间序列分析的可扩展和可泛化选择。通过基于前述上下文独立预测每个令牌,仅解码器模型也是多长度预测器,避免了资源密集型的训练和存储。然而,现有的仅解码器预测器通常仅在单个通道上训练,使它们无法利用序列间的依赖关系。

先前的工作采用仅编码器 Transformer 来完全捕捉二维时间序列内的依赖关系。这种架构与下一令牌预测的不兼容性限制了 Transformer 的灵活性和性能。迄今为止,在单个 Transformer 中实现下一令牌预测和多变量时间序列预测仍然是一个基本挑战。我们通过将变量依赖和时间因果性整合到细粒度的注意力掩码中来应对这个问题,从而在不改变自注意力机制的同时,利用上下文灵活性并捕捉序列间的依赖关系。

3. 方法

在本节中,我们首先介绍一个生成式 Transformer 来说明在一维时间序列上进行下一令牌预测的过程。作为扩展,我们设计了 TimeAttention 并提出了 Timer-XL 用于统一时间序列预测。通过将上下文从一维序列推广到二维时间序列,它适用于单变量、多变量和协变量信息场景。

3.1 Timer

Timer 是一个通过下一令牌预测训练的生成式 Transformer,它将单维时间序列视为不重叠的片段令牌。

下一令牌预测 给定一个长度为 TP 的单变量时间序列,一个时间序列令牌被定义为 P 个连续的时间点,也称为片段令牌。训练目标是独立预测下一个片段令牌以最大化似然。这是通过一个具有 L 个块数和模型维度 D 的仅解码器架构实现的。为简洁起见,我们省略了块索引 l。Timer 采用独立的嵌入和投影令牌嵌入。TrmBlock 包括前馈网络和带有时间因果掩码的自注意力。是前 i 个令牌的上下文表示。预测的通过 MSE 损失与真实值进行监督。

3.2 从一维序列推广到二维时间系列

对于具有额外维度的扩大上下文,我们提出的注意力机制旨在(1)彻底捕捉序列内和序列间的依赖关系,并且(2)在时间维度内保持因果性。不失一般性,我们用多变量预测的情况来说明这一点。

多变量下一令牌预测 给定一个具有 N 个变量的多变量时间序列,时间序列令牌被定义为第 m 个变量的第 i 个片段。训练目标仍然是独立预测下一个令牌。与之前不同,每个预测是基于所有 N 个变量在先前时间(≤ i)的令牌做出的。与公式 2 相比,多变量上下文长度从 T 增加到 NT。相比之下,好处在于这种范式在学习每个序列内的因果依赖的同时,还融入了来自其他序列的细粒度变量相关性,使其成为一种通用的预测机制,并且在实验上优于通道独立和粗粒度的变量维度建模。

在技术上,我们仍然采用令牌嵌入来获得片段级别的表示,它将通过 Transformer 块包含来自 Ni 个令牌的上下文信息,并最终通过投影到预测的片段令牌。

位置嵌入 位置嵌入在时间序列 Transformer 中尚未得到充分探索。为了解决 Transformer 固有的置换不变性,注意力机制应反映在时间维度上变化的令牌的相对位置(时序信息)。相反,打乱变量的输入顺序不应影响除变量输出顺序之外的任何内容,这就要求变量嵌入应该是置换不变的。

为了满足上述要求,我们采用 RoPE,一种在大语言模型中广泛使用的相对位置嵌入,作为时间嵌入。在变量维度方面,我们使用两个可学习的标量来保持变量的自反性。不仅仅是简单地将它们结合在一起,我们在第 4.5 节提供了详细的消融研究以证明其有效性。其中是查询、键和值的维度。是旋转度为 t·θ 的旋转矩阵,是指示函数,u, v ∈ R 是用于区分其内生和外生变量的可学习参数。

TimeAttention 与变量维度和非因果片段维度令牌不同,我们的 TimeAttention 可以捕捉所有变量内部和之间的因果片段级依赖关系。我们在计算出的注意力图中屏蔽掉非因果依赖关系。在掩码之前,我们按照时间优先的方式展平它们的二维索引来对令牌重新排序,这在图 2 的左上角进行了说明。

我们提供一个直观的例子来说明多变量时间序列中的因果依赖关系:考虑时间序列 A 的第 2 个令牌。为了预测它的下一个令牌,它的表示 h 应该精确地依赖于令牌 {1,2,4,5}。类似地,我们在图 2 的中上部提供了每个令牌的因果依赖关系。从粗粒度变量依赖的观察开始,在这个多变量任务中所有变量都是相互关联的,我们发现对 A 的细粒度掩码可以形式化地推导为两个矩阵的 Kronecker 积:变量依赖图的邻接矩阵,和因果时间掩码。令 Kronecker 积取两个矩阵并产生一个块矩阵。因此,TimeAttention 表述如下:如前所述,中的令牌表示将由前馈网络和层归一化独立处理,并馈送到下一个 Transformer 块中。

统一时间序列预测 在多变量预测中,变量依赖形成完全图,呈现出一个全一矩阵。通过将 TimeAttention 推广到多个序列,生成式 Transformer 可以利用上下文灵活性来包含相关的协变量。在这种情况下,Timer-XL 通过两个步骤进行适配:(1)将定制的变量依赖表述为 C,以及(2)使用目标变量的监督来优化模型。一个示例(目标-A-协变量-B)的注意力在图 2 的右侧进行了说明。简而言之,我们引入了位置嵌入并扩展了生成式 Transformer 的上下文长度。为了实现统一的时间序列预测,我们将二维时间序列展平为一个长上下文,并捕捉细粒度的因果令牌依赖关系。

4 实验

我们对 Timer-XL 的性能和通用性进行了全面评估。鉴于在先前基准测试上的性能已趋于饱和,其中 Transformer 由于其数据饥渴的特性倾向于在这些任务上过拟合,我们建立了新的长上下文基准测试,并将发布我们的数据集以推动该领域的进步。详细的数据集、基线模型和实验配置在附录 B 中提供。我们还深入研究了常用的技术,例如通道独立和归一化。我们得出结论,长上下文 Transformer 可以在没有任何任务特定设计的情况下应对这些挑战。

4.1 单变量时间序列预测

设置 由于在单变量数据集中扩展上下文时数据集长度不足,我们采用了公认的基准测试。尽管这些数据集最初是多变量的,但它们将通过通道独立的实现以单变量方式进行预测。与先前的长期预测设置不同,我们专注于基于长上下文的可靠预测。因此,我们固定预测范围,并将回看长度增加到月和年级别。我们还基于具有挑战性的 40 年 ECMWF 再分析 v5 数据集建立了一个长上下文单变量基准测试,其中采用年上下文来预测单个站点的地表温度。

结果 如图 3 所示,通过将日上下文扩展到月上下文,可以普遍提高单变量预测的准确性,从而强调了该领域普遍存在的上下文瓶颈。我们将 Timer-XL 与 PatchTST 进行比较,当上下文长度持续增加时,Timer-XL 可以超越最先进的仅编码器 Transformer。这表明 Timer-XL 擅长处理极长的上下文,从而实现了突破性的性能。同样值得注意的是,月和年上下文的性能改善缓慢甚至恶化,称为上下文过饱和。这可能源于增加的噪声和训练难度,这为未来提高上下文效率留下了方向。表 1 提供了 ERA5-S 上的结果。Timer-XL 在所有站点上始终优于 PatchTST,这归功于仅解码器架构中因果性和令牌级别监督的保持。

分析 此外,我们分析了单变量任务中普遍存在的非平稳性挑战。通常通过归一化来解决,这在先前的基准测试中大大提高了 Transformer 的性能。然而,我们发现这可能是由于这些数据集中时间跨度和训练样本不足造成的。因此,归一化通过将具有不同均值和方差的时间序列对齐到同一分布来丰富训练样本。相反,它使 Transformer 局限于窗口内的时间变化,阻止它们学习窗口间的变化,导致预测过度平滑和在长上下文中的失败。在表 1 中,我们评估了包含足够样本的 ERA5-S 上的性能。它验证了长上下文 Transformer 即使没有归一化也能取得更好结果的说法。

4.2 多变量时间序列预测

设置 我们遵循 iTransformer 来评估多变量预测性能。为了成为一个“全能”预测器,我们还评估了滚动预测性能,即我们通过在前一次迭代中将先前的预测整合到回看窗口中,为所有预测范围训练一个模型。我们进一步建立了长上下文多变量预测基准测试:ERA5 多站点地表温度预测,以及全球温度和风速预测挑战,以利用足够的训练样本学习复杂的时间动态和变量相关性。

结果 如表 2-4 和图 4 所示,Timer-XL 在先前和新的基准测试上都取得了最佳结果。本质上,显式捕捉序列间依赖关系的 Transformer,如 Moirai 和 iTransformer,在表 2 中合理地取得了不错的性能。除了 iTransformer,Timer-XL 还可以对细粒度的片段级时间依赖进行建模。通过 TimeAttention,Timer-XL 特别是在高维时间序列上优于 Timer。与仅编码器的 Moirai 相比,仅解码器 Transformer 在表 3 中擅长在不同预测长度间泛化。

分析 片段化已被证明是时间序列模态的有效令牌化方法,导致了监督深度预测器和大型时间序列模型中 Transformer 的繁荣。为了更好地应对多变量时间序列预测,我们在 ERA5-MS 上比较了这些 Transformer,以回答以下问题:(1)是否进行显式的序列间建模,以及(2)是否使用仅解码器还是仅编码器 Transformer。组合在表 4 中呈现了四种典型的 Transformer,表明 Timer-XL 结合了显式序列间建模和仅解码器架构的优点,适用于具有任意预测范围的多变量时间序列预测。

4.3 带协变量的时间序列预测

设置 对于带协变量的预测,我们采用公认的电价预测任务。每个子集包含电价作为内生变量和两个外生变量。因此,Timer-XL 的变量依赖被表述为。为了研究是在协变量中学习因果还是非因果片段级依赖关系,我们实现了两个版本的 Timer-XL:原始版本带有时间因果掩码 T,以及非因果版本,其中 T 被替换为全一矩阵。

结果 如表 5 所示,Timer-XL 在带协变量的任务中优于最先进的模型。与将整个协变量视为一个令牌的 TimeXer 相比,Timer-XL 学习细粒度的片段级依赖关系。通过 Timer-XL 的非因果版本,我们惊讶地发现了与内生变量一致的结论:如果 Timer-XL 在外生变量内部学习因果依赖关系,结果会更好。这再次验证了保持因果性的下一令牌预测具有更高的性能上限。

4.4 预训练的时间序列 Transformer

设置 预训练旨在教导时间序列 Transformer 可迁移的时间动态。产出的大型时间序列模型可以更好地应对普遍存在的少样本和零样本预测挑战。为了将 Timer-XL 扩展为大型模型,我们在 UTSD 上进行了预训练,用于领域通用模型,并在我们策划的数据集 ERA5-Large 上进行了预训练,用于领域特定模型。在 ERA5-Large 上,我们评估了 PatchTST 和 Timer-XL 的数据集内泛化性能:在 80% 的站点和 80% 的时间跨度上进行预训练,并直接预测剩余的站点(变量泛化)、时间跨度(时间泛化)以及跨时间和跨站点的分割。为了评估数据集外泛化性能,我们按照 Timer 进行零样本预测。与 Timer 相比,Timer-XL 的上下文长度从 672 增加到 2880。

结果 我们在图 5 中部提供了 ERA5-Large 的数据集内泛化性能。Timer-XL 在所有情况下都取得了比 PatchTST 更好的结果,支持了仅解码器架构具有更强泛化性能的观点。图 5 比较了零样本预测结果,其中 Timer-XL 在所有基准数据集上都优于 Timer,表明通过在更大上下文上进行预训练来改进零样本预测是一个有前景的方向。

4.5 模型分析

消融研究 如表 6 所示,我们对 TimeAttention 进行了评估以验证位置嵌入的有效性。对于变量嵌入,区分内生和外生变量可以提高性能。基于我们观察到的学习到的 u > v,我们发现令牌合理地更关注内生变量的令牌。这为屏蔽掉较少关注外生变量的次要依赖关系留下了先验。对于时间维度,其他位置嵌入不如 RoPE,因为它使用仿射变换,而其他是加性的,因此与变量的相同加性嵌入混淆较少。作为对应的 Transformer,Moirai 采用了相同的位置嵌入组合,但其性能在表 3 和 4 中仍然不如 Timer-XL,表明仅解码器 Transformer 与此类位置嵌入更兼容。

模型效率 为了评估 Timer-XL 相对于上下文长度的模型效率,必须认识到时间序列数据与一维序列相比的独特特征。与自然语言不同,时间序列模态的特征在于变量数 N 和输入长度。我们采用两个具有不同 N 的代表性多变量数据集,并在逐渐延长输入的情况下提供内存占用和训练速度。我们评估处理多变量序列的典型方法:(1)Timer-XL 和 Moiria 采用通道依赖;(2)Timer 采用通道独立。直观上,第一类的复杂度是 O(NT²),而通道独立下的自注意力复杂度是 O(NT²)。然而,图 6 显示的结果表明,Timer-XL 的实测成本远低于 Timer 的 N 倍。

由于先前对时间序列 Transformer 模型效率的分析主要集中在二维时间序列的自注意力上,我们初步提出了 Transformer 在二维时间序列上计算复杂度的理论推导,包括表 7 中的参数计数、内存占用和 FLOPs。我们发现 Transformer 的其他部分,例如前馈网络,无论采用哪种方法处理多变量时间序列,其复杂度都是 O(NT)。在现有的基准测试中,它们也导致了主要的开销,因为它们的上下文长度不够长,这证实了我们的经验结果。此外,我们可以引入 FlashAttention 来减少内存占用和训练速度,它在计算上是等效的,并将 Timer-XL 的整体内存占用减少到 O(NT) 而不影响性能。

表示分析 除了增强的性能之外,细粒度的令牌依赖关系提供了更好的可解释性。我们在图 7 中展示了来自 Traffic 的展示可视化。观察到沿对角线的子矩阵通常获得更大的注意力,这合理地揭示了内生变量内的主要依赖关系。通过放大一个对应于 Variable-3 的子块,我们观察到最后一行的注意力分布可以指示片段令牌之间的某些强依赖关系。这一观察也得到了自相关函数图的支持,它揭示了具有特定滞后的自相关,因此模型特别关注这些令牌。此外,我们将每个子矩阵平均为一个标量。结果矩阵也可以说明原始数据中呈现的 Pearson 相关性。

5 结论与未来工作

基于预测原理,我们强调了在时间序列领域扩展上下文长度的紧迫性。为了促进长上下文预测器处理多样化任务,我们提出了多变量下一令牌预测,这是一种用协变量预测一维和二维时间序列的新范式。我们提出了由 TimeAttention 增强的 Timer-XL,作为生成式时间序列 Transformer 的超长版本。它通过因果自注意力同时捕捉时间动态和变量相关性。除了在广泛的数据集上实现最先进的性能外,我们还为长上下文预测建立了具有挑战性的基准测试。此外,通过在大规模异构时间序列上进行预训练,Timer-XL 作为一个“全能”大型模型展示了显著的泛化能力。未来,我们将提高上下文利用率和计算效率。